[2023年6月21日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Modern Data Stack全般
You don't need the Modern Data Stack to get sh*t done
HightouchのCofounder兼CEOであるTejas氏による記事ですが、最新のModern Data Stackのツールを導入することが最優先ではなく、最優先事項はビジネスの関係者と緊密に連携して、データがビジネスの推進にどのように役立つかを理解することである、ということについて論じた記事が出ていました。
「Modern Data StackであるHightouchの創業者がこんな記事を出すのか!」と思いつつ、記事を読むと納得の内容でした。Modern Data Stackを導入することは目的ではなくただの手段で、本当の目的はビジネスの課題を解決することだと、私も思うからです。よくBIツールの導入でダッシュボードの構築が目的化してしまい、構築したがビジネスに貢献せず全く使われないというケースも経験のある方は多いと思います…
Modern Data Stackの各製品はデータ基盤を構築する上では非常に強力な製品だと思いますが、本来の目的はビジネス課題の解決・ビジネスへの貢献ですので、私もこの観点を持って業務に取り掛かりたいと改めて感じた記事でした。
What is Data Activation?
Census社により「What is Data Activation?」というタイトルでData Activationとは何か、使用例も交えて詳細に説明された記事が出ていました。
自分も正直「Data ActivationとReverse ETLって何が違うの?」と思っていた人間なのですが、この記事を読んだことで、Reverse ETLというデータ基盤上のプロセスがData Activationに必要な要素であることが理解できました。
この記事を読んだ上で、私の解釈は以下のようになりました。
- Data Activation
- DWHなどに保存されているデータをビジネス上の意思決定や顧客体験に紐付け、ビジネス成果へと繋げること
- Reverse ETL
- DWHなどからCRM・広告プラットフォーム・その他のSaaSなど実際にアクションを行うシステムにデータを同期・運用すること
Eight trends in data reliability over the next few years
Bigeye社により、Data Reliability(データの信頼性)の分野において今後数年間でどういった分野がトレンドとなるか述べられた記事が投稿されていました。
DataOps、データ品質のための機械学習の活用、LLMの活用、Data Contractsの普及、など様々な観点で述べられているので、気になる方はぜひご覧ください。
17 Super Valuable Automated Data Lineage Use Cases With Examples
Monte Carlo社により、自動生成されるデータリネージがどのように役立つか、ユースケースと例をまとめた記事が出ていました。
データリネージがどのように役立つかがここまで言語化された記事もなかなかないと思うので、参考になると思います。
15 Best Data Governance Books To Read in 2023
Secoda社のブログにおいて、2023年に読むべきデータガバナンスについて書かれた本15冊のまとめ記事が出ていました。
すべて洋書ではありますが、興味のある方はぜひご覧ください。
Data Extract/Load
Fivetran
Transformations for dbt Coreがdbt version1.5.1に対応
Fivetran経由でdbtで定義したModelを実行できるTransformations機能ですが、dbt Core 1.5.1に対応しました!
これで、dbt 1.5の新機能であるAccess、Contracts、Versionsを用いた処理をFivetran経由で実行できるようになりましたね。
Fivetran社のCEO・Snowflake社のCEO・交えたERPのデータに関する対談レポート
Fivetran社の公式ブログにおいて、 Fivetran社のCEOであるGeorge氏、Snowflake社のCEOであるFrank氏を交えたERPのデータに関する対談レポートが投稿されていました。
SAPやOracle NetSuiteなどのERPシステムは多くの大企業で使用されていますが、ERPシステムで直接データにアクセスしようとすると仕様が複雑だったりデータの形式が多様でアクセスが困難な場合が多いです。
そんなとき、FivetranでERPシステムの複雑な仕様のデータを簡単にSnowflakeにロードし、他のSalesforceやStripeなどの様々なデータも併せてSnowflake上にまとめて一元管理できるようにすることで、各データを組み合わせた分析と意思決定ができると述べられています。
これらのERPシステムのデータの扱いにお困りの方は、ぜひ一度FivetranとSnowflakeを試して頂きたいです。
Airbyte
Airbyte 0.50に関するまとめ記事
Airbyteがver0.50をリリースしたため、どういった機能を含んでいるかをまとめた記事を投稿されていました。
ver0.50では、障害発生時に最新のチェックポイントから再開出来る機能や、同期対象のカラムの選択、テーブルのスキーマ変更時の自動修正機能、といった機能が含まれています。
Data Warehouse/Data Lakehouse
Snowflake
スキーマ検知機能がCSVとJSONに対応 ※パブリックプレビュー
Snowflakeでは元々、Parquet、Avro、ORC、といったフォーマットにおいてスキーマ検知機能を提供していましたが、今回のアップデートでCSVとJSONも対応するようになりました。
実際には下記の記事のことが、CSVとJSONでも出来るようになっています。CSVとJSONは多くの人が使用するフォーマットだと思いますので、ぜひご活用ください!
列の自動追加を行ってくれるTable Schema Evolutionがリリース ※パブリックプレビュー
COPYコマンドやSnowpipeでロード処理が行われた際、対象テーブルのスキーマ定義と異なる場合には自動で列の追加を行ってくれる「Table Schema Evolution」がリリースされました。
テーブルのスキーマ定義がよく変わるデータについては、有効な場面も多い機能だと思います。
詳しくは下記の公式Docもご覧ください。
BigQuery
PaLM 2がBigQueryから呼び出せるML.GENERATE_TEXT関数がプレビュー
Googleのテキスト生成モデル、PaLM 2がBigQuery から呼び出せるML.GENERATE_TEXT関数がプレビューになりました。
LLMを用いた分類やテキストの修正などがBigQuery上で実施できるため、とても便利だと思います!
関連するチュートリアルも用意されていたので、ぜひこちらもお試しください。
DuckDB
2023年6月のDuckDBに関する情報まとめ
MotherDuck社のブログにおいて、「THIS MONTH IN THE DUCKDB ECOSYSTEM: JUNE 2023」というタイトルで2023年6月のDuckDBに関する情報のまとめ記事が出ていました。
Data Transform
dbt
dbt Labs社におけるdbtの使用事例
dbt Labs社のブログにおいて、dbt Labs社がどのようにdbtを使用しているかが書かれた記事が出ていました。
dbt Labs社では、収益や経費の整理、キャンペーンの分析、人員分析、といった分野でdbtとデータウェアハウスを用いているようです。
昨今はデータ分析だけのためにデータウェアハウスを使うのではなく、社内の事務的なオペレーションにもデータウェアハウスに貯めたデータを活用する動きが広まりつつありますが、この動きをdbt Labs社も採用しているようです。
dbt Cloud上でSQLFluffによるlintが可能に
dbt CloudのIDE上で、SQLFluffによるlintが可能になりました。.sqlfluff
ファイルをルートディレクトリに置くことで、独自のルールを構成することも可能です。
下記のドキュメントには「dbtonic config code example provided by dbt Labs」という項目でsqlfluffのサンプルもあるので、まずはこの内容からカスタマイズしていくのが良いと思います!
dbtを使用したユーザーセグメンテーションモデルの構築例
dbtを使用して、どのようにユーザーセグメンテーションを行うモデルを構築するか、RFM分析の例と実際のSQLが書かれたブログが投稿されました。
dbt-expectationsの初心者向けガイド
Airbyte社のブログにおいて、データのテストや品質レポートの出力が行えるOSSであるGreat Expectationsが提供しているdbt package「dbt-expectations」の初心者向けガイドが出ていました。
dbt-coreやdbt-utilsなどに備わっているテストは「dbtで開発した処理のテスト」が多いですが、dbt-expectationsに備わっているテストは「本番稼働中のデータ基盤で異常値がないかを確認するテスト」が多いです。
実際にデータ自体の品質をdbtを介してウォッチしたい方には、非常におすすめのdbt packageだと思います。
dbt-expectationsについては私も一度検証しておりますので、こちらも参考になると嬉しいです。
Snowflakeでdbtを活用するためのプラクティス
Datafold社により、Snowflakeでdbtを活用するためのプラクティスをまとめた記事が投稿されていました。
Snowflake特有のテクニックはもちろんですが、Snowflakeでのみ使える各種dbt packageについても言及されているので、Snowflake用のdbt packageについて知りたい方にもおすすめの記事です。
dbt_utilsの活用ガイド
dbt_utilsはdbt Labs社公式の汎用的なdbt packageですが、Datafold社からどのように各種マクロやテストを活用するのかをまとめた記事が出ていました。
Semantic Layer
Cube
新機能を複数発表
Semantic Layerを担うCubeが、立て続けに新機能を発表していました。
- Cubeで定義した各Data Modelのリレーションを図示で確認できるData Graph
- AirflowやDagsterなどのオーケストレーションのツールから、上流のデータソースの変更をCubeに変更できるOrchestration API
- Cubeで定義したSemantic Layerの変更内容をSupersetやMetabaseに即時に反映できるSemantic Layer Sync
Business Intelligence
Looker
23.10がリリース開始
Lookerの最新バージョン、23.10がリリース開始となりました。7月14日までには全てのインスタンスでのバージョンアップが完了となる予定とのことです。
アップデート内容の中では特に、Power BI ConnectorがGAとなったことが驚きでした!
メルカリ社でのLookerのExploreの活用例
メルカリ社より、LookerのExploreを社内で活用してデータ分析のセルフサービス化に向けて取り組んでいることが詳細に書かれた記事が出ていました。
Lookerの強みが存分に生きた事例であり、かつ分析環境を社内ユーザーに使用して頂くためのアプローチも詳細に書かれてあるため、「社内向けのデータ分析基盤を構築したけど、社内のユーザーが使ってくれない…」とお困りの方には凄い刺さる内容だと感じました。
Mode
Mode社によるTableauの長所・短所・昨今の位置づけについて述べた記事
Mode社によるTableauの長所・短所・昨今の位置づけについて述べた記事が投稿されていました。
ModeとTableauは製品特性上、競合関係にあるため一概にすべての内容を鵜呑みにするのは良くないと思いますが、「なるほど」と思える観点もいくつかあったので紹介させて頂きます。
Tableau
結果が長くてスクロールしてしまうシートをページ分割する手順
phData社により、結果が長くてスクロールしてしまうシートをページ分割してボタンを設置してページ移動できるようにするための手順がまとめられた記事が出ていました。
こんなことが出来るとは知らなかったので、純粋に勉強になったので本記事で共有します。
Data Catalog
Atlan
BigQueryとGlueのネストされた半構造化データを閲覧しやすくなりました
Atlanにおいて、BigQueryとGlueのネストされたJSONなどの半構造化データがパースされた形でプレビューできるようになったため、閲覧しやすくなりました。
今現在はネストされたカラムの検索をサポートしていないようですが、下記のリンク先に「Atlan currently does not support search and discovery for nested columns, so stay tuned for more updates!」と書かれているので、期待したいところです。
CastorDoc
Castor AI 2.0の紹介
2023年4月にCastorは実行されたクエリの内容を解説してくれるCastor AIを発表していましたが、新しくCastor AI 2.0としてカラムやテーブルの説明文を自動で生成する機能を発表しました。
下記のブログを見る限りはKnowledgeにも適用できそうなので、重要ですが手間のかかる用語や指標の説明などの作成にも役立ちそうですね!
Data Quality・Data Observability
Monte Carlo
Monte CarloがG2でNo.1のData Observability Platformとして認定されていました
製品レビューのサイトであるG2で、Monte CarloがG2でNo.1のData Observability Platformとして認定されていました。